05/08/2020

Logística del curso

Algunos acuerdos

  • Cámaras abiertas cuando sea posible (y si el internet lo permite)
  • Micrófonos cerrados
    • A menos que tengan preguntas
  • PPT se subirá a CANVAS después de cada clase
  • Aprender haciendo
    • Demostraciones, ejercicios, tareas
  • Dedicación de tiempo

Información general (i)

  • 10 clases
    • última clase: presentaciones
  • Sin ayudante
  • Consultas por CANVAS fuera del horario de clases
  • Hora de consulta (Zoom): Todos los lunes 18:00-19:00
    • A menos que se diga lo contrario

Información general (ii)

  • 4 tareas: 40% (10% c/u)
  • Trabajo: 50%
    • Informe preliminar (10%)
    • Informe final (20%)
    • Presentación (20%)
  • Participación

Me presento

Ahora ustedes

¿De qué se trata este curso?

¿De qué se trata este curso?

Usar datos…

  • para facilitar tareas
  • para aprender algo
  • para informar decisiones
  • para el bien común (¿?)

Muchos datos en la actualidad

Los datos pueden ser bonitos

Los datos pueden ser informativos

Los datos pueden ser poderosos

Yeh et al., 2020. Nature

Los datos pueden ser engañosos

Los datos pueden ser peligrosos (i)

Los datos pueden ser peligrosos (ii)

Los datos pueden ser peligrosos (iii)

¿Qué hacer entonces?

Ustedes ya saben de estas cosas

  • Métodos econométricos
  • Gestión, representación, y análisis de datos
  • Evaluación de impacto
  • Otros…

Una pregunta más

Foco de este curso

Productores de análisis

Pero también mejores consumidores…

En específico

  • Visualización de datos
  • Manejo de datos
  • Regresión/Clasificación
  • Predicción vs Inferencia
  • Aprendizaje no supervisado
  • Automatización (¿?)
  • PROGRAMACIÓN

¿Por qué programar?

Reproducibilidad (i)

Reproducibilidad (i)

Objetivo: realizar un reporte basado en datos de Datos Públicos

SIN PROGRAMACIÓN

  1. Ingresar a la web y descargar datos
  2. Limpiar datos en MS Excel
  3. Analizar datos en Stata
  4. Escribir documento en MS Word

Reproducibilidad (i)

Objetivo: realizar un reporte basado en datos de Datos Públicos

SIN PROGRAMACIÓN

  1. Ingresar a la web y descargar datos
  2. Limpiar datos en MS Excel
  3. Analizar datos en Stata
  4. Escribir documento en MS Word

CON PROGRAMACIÓN

  1. Crear una carpeta específica para el proyecto/tarea
    • datos
    • gráficos
    • resultados
  2. Descargar datos desde R
  3. Limpiar datos en R
  4. Analizar datos en R
  5. Escribir documento en R Markdown

Reproducibilidad (ii)

Seis meses después quieres repetir la tarea (o un/a coleg@)

Reproducibilidad (ii)

Seis meses después quieres repetir la tarea (o un/a coleg@)

SIN PROGRAMACIÓN

  1. Recordar que se hizo
  2. Ingresar a la web y descargar datos
  3. Limpiar datos en MS Excel y esperar no haberse olvidado de nada
  4. Analizar datos en Stata
  5. Escribir documento en MS Word

Reproducibilidad (ii)

Seis meses después quieres repetir la tarea (o un/a coleg@)

SIN PROGRAMACIÓN

  1. Recordar que se hizo
  2. Ingresar a la web y descargar datos
  3. Limpiar datos en MS Excel y esperar no haberse olvidado de nada
  4. Analizar datos en Stata
  5. Escribir documento en MS Word

CON PROGRAMACIÓN

  1. Re-correr el código

R y Tidyverse

  • Hay muchos lenguajes de programación
  • Hay muchas formas de escribir código en R

Fuentes valiosas de información (i)

Fuentes valiosas de información (ii)

Suficiente bla bla…

Demo - Ejercicio

  • script: EjercicioRepasoR.R

Cosas a tener en cuenta

Tipos de datos

Pipe

%>% nos permite definir nuestras acciones como una secuencia

  • Código “anidado”
estacionar(manejar(buscar(llaves), hacia = "trabajo"))
  • Código como secuencia
llaves %>% 
  buscar() %>% 
  manejar(hacia = "trabajo") %>% 
  estacionar()

Simpre hay más de una forma de hacer lo mismo

datos_mundo[datos_mundo$anio == 2007,]
subset(datos_mundo, anio == 2007)
filter(datos_mundo, anio == 2007) 
datos_mundo %>% filter(anio == 2007) 
## # A tibble: 142 x 6
##    pais        continente  anio ExpVida       pob gdpPercap
##    <chr>       <chr>      <dbl>   <dbl>     <dbl>     <dbl>
##  1 Afghanistan Asia        2007    43.8  31889923      975.
##  2 Albania     Europe      2007    76.4   3600523     5937.
##  3 Algeria     Africa      2007    72.3  33333216     6223.
##  4 Angola      Africa      2007    42.7  12420476     4797.
##  5 Argentina   Americas    2007    75.3  40301927    12779.
##  6 Australia   Oceania     2007    81.2  20434176    34435.
##  7 Austria     Europe      2007    79.8   8199783    36126.
##  8 Bahrain     Asia        2007    75.6    708573    29796.
##  9 Bangladesh  Asia        2007    64.1 150448339     1391.
## 10 Belgium     Europe      2007    79.4  10392226    33693.
## # ... with 132 more rows

… incluyendo los gráficos

Además de libros y google…

Siempre consulten ?nombrefunción. Ej: ?ggplot

¿Qué se viene?

  • Semana 2: Visualización de datos
  • Semana 3: Manejo de datos
    • Entregables: Idea de trabajo y Tarea 1